Cientistas do MIT criaram a maior coleção do mundo de problemas de matemática de nível olímpico e a disponibilizaram para todos
Um novo conjunto de dados com mais de 30.000 problemas matemáticos de competições de 47 países oferece aos pesquisadores de IA um desafio maior — e aos estudantes do mundo todo um campo de treinamento melhor.

O MathNet é o maior conjunto de dados de alta qualidade já criado com problemas matemáticos baseados em demonstrações. Ele compreende mais de 30.000 problemas e soluções elaborados por especialistas, abrangendo 47 países, 17 idiomas e 143 competições. Crédito: Shaden Alshammari
Todos os anos, os países que competem na Olimpíada Internacional de Matemática (IMO) chegam com um livreto contendo seus melhores e mais originais problemas. Esses livretos são compartilhados entre as delegações e, em seguida, desaparecem silenciosamente. Ninguém jamais os havia coletado sistematicamente, organizado e disponibilizado, nem para os pesquisadores de IA que testam os limites do raciocínio matemático, nem para os estudantes do mundo todo que treinam para essas competições praticamente sozinhos.
Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT, da Universidade de Ciência e Tecnologia Rei Abdullah (KAUST) e da empresa HUMAIN fizeram exatamente isso.
O MathNet é o maior conjunto de dados de alta qualidade já criado, contendo problemas matemáticos baseados em demonstrações. Com mais de 30.000 problemas e soluções elaborados por especialistas, abrangendo 47 países, 17 idiomas e 143 competições, ele é cinco vezes maior que o segundo maior conjunto de dados do mesmo tipo. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizagem (ICLR), no Brasil, ainda este mês.
O que diferencia o MathNet não é apenas seu tamanho, mas também sua abrangência. Os conjuntos de dados anteriores, em nível de Olimpíadas, eram provenientes quase que exclusivamente de competições nos Estados Unidos e na China. O MathNet abrange dezenas de países em seis continentes, cobre 17 idiomas, inclui problemas e soluções tanto em texto quanto em imagem e engloba quatro décadas de matemática competitiva. O objetivo é capturar toda a gama de perspectivas matemáticas e tradições de resolução de problemas que existem na comunidade matemática global, e não apenas as mais visíveis.
"Cada país traz um livreto com seus problemas mais inovadores e criativos", diz Shaden Alshammari, estudante de doutorado do MIT e principal autor do artigo. "Eles compartilham os livretos entre si, mas ninguém havia se dado ao trabalho de coletá-los, organizá-los e disponibilizá-los online."
A construção do MathNet exigiu a localização de 1.595 volumes em PDF, totalizando mais de 25.000 páginas, abrangendo documentos digitais e digitalizações de décadas atrás em mais de uma dúzia de idiomas. Uma parte significativa desse arquivo veio de uma fonte improvável: Navid Safaei, uma figura de longa data da comunidade IMO e coautor que vinha coletando e digitalizando esses livretos manualmente desde 2006. Seu arquivo pessoal formou grande parte da espinha dorsal do conjunto de dados.
A origem dos dados é tão importante quanto a escala. Enquanto a maioria dos conjuntos de dados matemáticos existentes extrai problemas de fóruns da comunidade, como o Art of Problem Solving (AoPS), o MathNet utiliza exclusivamente cadernos oficiais de competições nacionais. As soluções nesses cadernos são escritas por especialistas e revisadas por pares, e frequentemente se estendem por várias páginas, com os autores apresentando diversas abordagens para o mesmo problema. Essa profundidade proporciona aos modelos de IA um sinal muito mais rico para o aprendizado do raciocínio matemático do que as soluções mais curtas e informais típicas de conjuntos de dados provenientes da comunidade. Isso também significa que o conjunto de dados é realmente útil para estudantes: qualquer pessoa que esteja se preparando para a IMO ou para uma competição nacional agora tem acesso a uma coleção centralizada e pesquisável de problemas de alta qualidade e soluções detalhadas de diversas tradições matemáticas do mundo todo.
"Lembro-me de muitos alunos para quem foi um esforço individual. Ninguém em seus países os preparava para esse tipo de competição", diz Alshammari, que competiu na IMO quando era estudante. "Esperamos que isso lhes proporcione um espaço centralizado com problemas e soluções de alta qualidade para que possam aprender."
A equipe tem fortes laços com a comunidade da OMI (Organização Marítima Internacional). Sultan Albarakati, um dos coautores, atualmente integra o conselho da OMI, e os pesquisadores estão trabalhando para compartilhar o conjunto de dados diretamente com a fundação da OMI. Para validar o conjunto de dados, eles reuniram um grupo de avaliação com mais de 30 avaliadores humanos de países como Armênia, Rússia, Ucrânia, Vietnã e Polônia, que trabalharam em conjunto para verificar milhares de soluções.
"O banco de dados MathNet tem o potencial de ser um excelente recurso tanto para estudantes quanto para líderes que buscam novos problemas para trabalhar ou a solução para uma questão difícil", afirma Tanish Patil, vice-líder da IMO da Suíça. "Embora existam outros arquivos de problemas de Olimpíadas (notadamente, os fóruns de Coleções de Competições no AoPS), esses recursos carecem de um sistema de formatação padronizado, soluções verificadas e metadados importantes que os tópicos e a teoria exigem. Também será interessante observar como esse conjunto de dados será usado para aprimorar o desempenho dos modelos de raciocínio e se em breve seremos capazes de responder de forma confiável a uma questão importante na criação de novas questões para Olimpíadas: determinar se um problema é realmente original."
O MathNet também funciona como um benchmark rigoroso para o desempenho da IA, e os resultados revelam um panorama mais complexo do que as manchetes recentes sobre a capacidade matemática da IA podem sugerir. Modelos de ponta fizeram progressos extraordinários: alguns, segundo relatos, alcançaram medalhas de ouro na IMO (Olimpíada Internacional de Matemática) e, em benchmarks padrão, agora resolvem problemas que deixariam a maioria dos humanos perplexa. Mas o MathNet mostra que o progresso é desigual. Mesmo o GPT-5, o modelo com melhor desempenho testado, obteve uma média de cerca de 69,3% no benchmark principal do MathNet, com 6.400 problemas, falhando em quase um terço dos problemas de nível olímpico. E quando os problemas incluem figuras, o desempenho cai significativamente em todos os casos, expondo o raciocínio visual como um ponto fraco consistente até mesmo para os modelos mais capazes.
Diversos modelos de código aberto obtiveram pontuação zero em problemas de língua mongol, evidenciando mais uma área em que os sistemas de IA atuais deixam a desejar, apesar de sua robustez geral.
"Os modelos GPT são igualmente bons em inglês e em outros idiomas", diz Alshammari. "Mas muitos dos modelos de código aberto falham completamente em idiomas menos comuns, como o mongol."
A diversidade do MathNet também visa abordar uma limitação mais profunda na forma como os modelos de IA aprendem matemática. Quando os dados de treinamento se concentram em problemas em inglês e chinês, os modelos absorvem uma parcela restrita da cultura matemática. Um problema de combinatória em romeno ou um problema de teoria dos números em brasileiro podem abordar o mesmo conceito subjacente de um ângulo completamente diferente. A exposição a essa variedade, argumentam os pesquisadores, torna tanto humanos quanto sistemas de IA melhores pensadores matemáticos.
Além da resolução de problemas, o MathNet introduz um benchmark de recuperação que questiona se os modelos conseguem reconhecer quando dois problemas compartilham a mesma estrutura matemática subjacente, uma capacidade importante tanto para o desenvolvimento de IA quanto para a própria comunidade matemática. Problemas quase idênticos têm aparecido em provas reais da IMO ao longo dos anos, porque encontrar equivalências matemáticas entre diferentes notações, linguagens e formatos é realmente difícil, mesmo para comissões humanas especializadas. Testando oito modelos de incorporação de última geração, os pesquisadores descobriram que mesmo os mais fortes identificaram a correspondência correta apenas em cerca de 5% das vezes na primeira tentativa, com os modelos frequentemente classificando problemas estruturalmente não relacionados como mais semelhantes do que equivalentes.
O conjunto de dados também inclui um benchmark de geração aumentada por recuperação, que testa se fornecer a um modelo um problema estruturalmente relacionado antes de pedir que ele resolva um novo melhora o desempenho. De fato, melhora, mas apenas quando o problema recuperado é genuinamente relevante. O DeepSeek-V3.2-Speciale obteve um ganho de até 12 pontos percentuais com recuperação bem-feita, enquanto a recuperação irrelevante degradou o desempenho em aproximadamente 22% dos casos.
Alshammari escreveu o artigo com Safaei, o engenheiro de IA da HUMAIN, Abrar Zainal, o diretor da Academia KAUST, Sultan Albarakati, e colegas do MIT CSAIL: o mestrando Kevin Wen SB '25; o gerente principal de engenharia da Microsoft, Mark Hamilton SM '22, PhD '25; e os professores William Freeman e Antonio Torralba. O trabalho foi financiado, em parte, pela Bolsa de Estudos Schwarzman do Colégio de Computação e pela Fundação Nacional de Ciência (NSF).
O MathNet está disponível publicamente em mathnet.csail.mit.edu .